练习：Epsilon 贪婪策略

在上个部分，你学习了 \epsilon 贪婪策略。

为了构建一个相对于当前动作值函数估值 Q 为 \epsilon 贪婪策略的策略 \pi，我们只需设置

针对每个 s\in\mathcal{S} 和 a\in\mathcal{A}(s)。注意，\epsilon 必须始终是 0-1（含）之间的值（即 \epsilon \in [0,1]）。

你可以将遵守 \epsilon 贪婪策略的智能体看做始终可以操控硬币方向（可能不公平），正面朝上的概率是 \epsilon。观察状态后，智能体就会抛掷该硬币。

在这道练习中，你将回答几个问题以检验你的知识理解情况。

SOLUTION:

SOLUTION:

SOLUTION:

SOLUTION: